从单眼RGB图像中捕获的3D人类运动捕获符合受试者与复杂且可能可变形的环境的相互作用的相互作用是一个非常具有挑战性,不足和探索不足的问题。现有方法仅薄弱地解决它,并且当人类与场景表面互动时,通常不会建模可能发生的表面变形。相比之下,本文提出了mocapdeform,即单眼3D人体运动捕获的新框架,该框架是第一个明确模拟3D场景的非刚性变形,以改善3D人体姿势估计和可变形环境的重建。 Mocapdeform接受单眼RGB视频,并在相机空间中对齐一个3D场景。它首先使用基于新的射线广播的策略将输入单眼视频中的主题以及密集的触点标签进行定位。接下来,我们的人类环境相互作用约束被利用以共同优化全局3D人类姿势和非刚性表面变形。 Mocapdeform比在几个数据集上的竞争方法获得了更高的精度,包括我们新记录的具有变形背景场景的方法。
translated by 谷歌翻译
我们提出Unrealego,即,一种用于以Egentric 3D人类姿势估计的新的大规模自然主义数据集。Unrealego是基于配备两个鱼眼摄像机的眼镜的高级概念,可用于无约束的环境。我们设计了它们的虚拟原型,并将其附加到3D人体模型中以进行立体视图捕获。接下来,我们会产生大量的人类动作。结果,Unrealego是第一个在现有的EgeCentric数据集中提供最大动作的野外立体声图像的数据集。此外,我们提出了一种新的基准方法,其简单但有效的想法是为立体声输入设计2D关键点估计模块,以改善3D人体姿势估计。广泛的实验表明,我们的方法在定性和定量上优于先前的最新方法。Unrealego和我们的源代码可在我们的项目网页上找到。
translated by 谷歌翻译
捕获一般的变形场景对于许多计算机图形和视觉应用至关重要,当只有单眼RGB视频可用时,这尤其具有挑战性。竞争方法假设密集的点轨道,3D模板,大规模训练数据集或仅捕获小规模的变形。与这些相反,我们的方法UB4D在挑战性的情况下超过了先前的艺术状态,而没有做出这些假设。我们的技术包括两个新的,在非刚性3D重建的背景下,组件,即1)1)针对非刚性场景的基于坐标的和隐性的神经表示,这使动态场景无偏重建,2)新颖的新颖。动态场景流量损失,可以重建较大的变形。我们的新数据集(将公开可用)的结果表明,就表面重建精度和对大变形的鲁棒性而言,对最新技术的明显改善。访问项目页面https://4dqv.mpi-inf.mpg.de/ub4d/。
translated by 谷歌翻译
无标记的单眼3D人类运动捕获(MOCAP)与场景相互作用是一个充满挑战的研究主题,与扩展现实,机器人技术和虚拟头像生成有关。由于单眼环境的固有深度歧义,使用现有方法捕获的3D运动通常包含严重的人工制品,例如不正确的身体场景互穿,抖动和身体漂浮。为了解决这些问题,我们提出了HULC,这是一种新的3D人类MOCAP方法,它知道场景几何形状。 HULC估计3D姿势和密集的身体环境表面接触,以改善3D定位以及受试者的绝对尺度。此外,我们基于新的姿势歧管采样,引入了3D姿势轨迹优化,该采样解决了错误的身体环境互穿。尽管所提出的方法与现有场景感知的单眼MOCAP算法相比需要较少的结构化输入,但它会产生更加可行的姿势:HULC显着且一致地在各种实验和不同指标上都优于现有方法。项目页面:https://vcai.mpi-inf.mpg.de/projects/hulc/。
translated by 谷歌翻译
3D手形状和姿势估计从单一深度地图是一种新的和具有挑战性的计算机视觉问题,具有许多应用。现有方法通过2D卷积神经网络直接回归手网,这导致由于图像中的透视失真导致人工制品。为了解决现有方法的局限性,我们开发HandvoxNet ++,即基于体素的深网络,其3D和图形卷轴以完全监督的方式训练。对我们网络的输入是基于截短的符号距离函数(TSDF)的3D Voxelized-Depth-Map。 handvoxnet ++依赖于两只手形状表示。第一个是手工形状的3D体蛋白化网格,它不保留网状拓扑,这是最准确的表示。第二个表示是保留网状拓扑的手表面。我们通过用基于新的神经图卷曲的网格登记(GCN-Meshreg)或典型的段 - 明智的非刚性重力方法(NRGA ++)来将手表面与Voxelized手形状对齐,通过将手表面对准依靠培训数据。在三个公共基准的广泛评估中,即Synhand5M,基于深度的Hands19挑战和HO-3D,所提出的Handvoxnet ++实现了最先进的性能。在本杂志中,我们在CVPR 2020呈现的先前方法的延伸中,我们分别在Synhand5M和17分数据集上获得41.09%和13.7%的形状对准精度。我们的方法在2020年8月将结果提交到门户网站时,首先在Hands19挑战数据集(任务1:基于深度3D手姿势估计)上排名。
translated by 谷歌翻译
We present a data-driven framework to automate the vectorization and machine interpretation of 2D engineering part drawings. In industrial settings, most manufacturing engineers still rely on manual reads to identify the topological and manufacturing requirements from drawings submitted by designers. The interpretation process is laborious and time-consuming, which severely inhibits the efficiency of part quotation and manufacturing tasks. While recent advances in image-based computer vision methods have demonstrated great potential in interpreting natural images through semantic segmentation approaches, the application of such methods in parsing engineering technical drawings into semantically accurate components remains a significant challenge. The severe pixel sparsity in engineering drawings also restricts the effective featurization of image-based data-driven methods. To overcome these challenges, we propose a deep learning based framework that predicts the semantic type of each vectorized component. Taking a raster image as input, we vectorize all components through thinning, stroke tracing, and cubic bezier fitting. Then a graph of such components is generated based on the connectivity between the components. Finally, a graph convolutional neural network is trained on this graph data to identify the semantic type of each component. We test our framework in the context of semantic segmentation of text, dimension and, contour components in engineering drawings. Results show that our method yields the best performance compared to recent image, and graph-based segmentation methods.
translated by 谷歌翻译
实时动态环境感知对于拥挤空间的自动机器人至关重要。尽管流行的基于体素的映射方法可以有效地用任意复杂的形状代表3D障碍,但它们几乎无法区分静态和动态障碍,从而导致避免障碍物的性能有限。尽管在自动驾驶中存在大量基于学习的动态障碍检测算法,但四轮驱动器的有限计算资源无法使用这些方法实现实时性能。为了解决这些问题,我们为使用RGB-D摄像机提出了一个实时动态障碍物跟踪和映射系统,以避免四肢障碍物。拟议的系统首先利用带有占用体素图的深度图像来生成潜在的动态障碍区域作为建议。通过障碍区域建议,Kalman滤波器和我们的连续性过滤器将应用于跟踪每个动态障碍物。最后,使用追踪动态障碍的状态基于马尔可夫链提出了环境感知的轨迹预测方法。我们使用定制的四轮驱动器和导航计划者实施了建议的系统。仿真和物理实验表明,我们的方法可以成功地跟踪和代表动态环境中的障碍,并安全地避免障碍。
translated by 谷歌翻译
导航动态环境要求机器人生成无碰撞的轨迹,并积极避免移动障碍。大多数以前的作品都基于一个单个地图表示形式(例如几何,占用率或ESDF地图)设计路径计划算法。尽管他们在静态环境中表现出成功,但由于地图表示的限制,这些方法无法同时可靠地处理静态和动态障碍。为了解决该问题,本文提出了一种利用机器人在板载视觉的基于梯度的B-Spline轨迹优化算法。深度视觉使机器人能够基于体素图以几何形式跟踪和表示动态对象。拟议的优化首先采用基于圆的指南算法,以近似避免静态障碍的成本和梯度。然后,使用视觉检测的移动对象,我们的后水平距离场同时用于防止动态碰撞。最后,采用迭代重新指导策略来生成无碰撞轨迹。仿真和物理实验证明,我们的方法可以实时运行以安全地导航动态环境。
translated by 谷歌翻译
随着基于粉末的添加剂制造的快速开发,DepeDdering是去除覆盖3D打印零件的未使用粉末的过程,已成为进一步提高其生产力的主要瓶颈。传统的手动缩减非常耗时且昂贵,并且一些先前的自动化系统要么需要预处理或缺乏对不同3D打印零件的适应性。为了解决这些问题,我们引入了一个机器人系统,该机器人系统会自动从3D打印零件的表面上去除未加入的粉末。关键组件是一个视觉感知系统,该系统由一个姿势跟踪模块组成,该模块可实时跟踪6D姿势的粉末封闭零件,以及一个估计缩减完成百分比的进度估计模块。跟踪模块可以在高达60 fps的笔记本电脑CPU上有效运行。实验表明,我们的退化系统可以从各种3D打印零件的表面上除去未持续的粉末,而不会造成任何损坏。据我们所知,这是第一个基于视觉的机器人脱皮系统之一,可适应各种形状的部分而无需预多供款。
translated by 谷歌翻译